DiDi @NeurIPS 2019 | 千里相聚温哥华,六篇论文解读新方向
点击上方“蓝色字体”,选择“置顶公众号”
精彩内容,即刻送达
导读
NeurIPS(Conference and Workshop on Neural Information Processing Systems,神经信息处理系统大会)于1986 年在由加州理工学院和贝尔实验室组织的Snowbird 神经网络计算年度闭门论坛上首次提出,最初被设计为研究探索生物和人工神经网络的互补性开放跨学科会议。近年来的NeurIPS 大会一直以机器学习、人工智能和统计学论文为主。是公认的机器学习领域的顶级会议。今年NeurIPS将于12月8日至12月14日在加拿大温哥华举行。
本文将重点对本届大会收录的6篇滴滴论文进行简要介绍,包括半监督学习、多源域自适应的语义分割、基于知识图谱的健康助手机器人、基于最小车队的动态车辆调度、基于轨迹合成的离线强化学习和基于强化学习的共享出行市场用户增量响应建模研究。
1
基于图的半监督学习下的不可忽略缺失问题
Graph-Based Semi-Supervised Learning with Nonignorable Non-response
基于图的半监督学习是分类任务中非常强大的工具,而在大多数现有文献中,有观测标签的顶点被默认为从顶点集合中随机抽样获得。当是否被观测的概率依赖于未观察到的顶点的隐藏标签时,忽略缺失数据和抽样机制会导致明显的估计偏差,并生成带偏的分类器。
为了解决该问题,滴滴AI Labs和上海财经大学周帆教授合作,提出了一种基于图的联合估计模型GNN。该模型考虑了不可忽略的缺失数据,然后提出了将逆加权估计方程和对缺失数据进行填补相结合的算法。通过对Cora等开源数据集的仿真和实证分析,我们的方法可以有效纠正样本偏误,不管在回归和分类问题的预测结果均优于某些模型。
2
基于多源域自适应的语义分割
Multi-source Domain Adaptation for Semantic Segmentation
我们的贡献主要有三个方面:(1)提出了多源语义分割的域适应方法。这是关于多源域自适应的第一个在语义分割任务上的工作。(2)我们设计了一个新的框架MADAN来做Multi-source DA的语义分割。除了特征级 (feature level)对齐外,还考虑了像素级 (pixel level)对齐,即为每个源循环生成一个自适应域,这与动态语义一致性损失是一致的。提出了子域聚合鉴别器和跨域循环鉴别器,以更好地匹配不同的自适应域。(3)我们进行了大量的实验,从合成的GTA和SYNTHIA到真实的Cityscapes和BDDS数据集,结果证明了我们提出的MADAN模型的有效性。
3
基于知识图谱的健康助手聊天机器人
A Knowledge Graph Based Health Assistant
随着人工智能尤其是自然语言处理技术的飞速发展,聊天机器人已经在各个应用领域针对多种用例进行了设计和实现,如电子商务客服机器人、旅行机票预订机器人等。在医疗保健领域,开发一种智能的个性化健康助手聊天机器人具有重要的意义,它可以帮助用户即时分析症状并辅助用户更加注意身体健康。本文介绍了一种基于医疗知识图谱的多轮对话系统,它作为健康助手聊天机器人,可以根据用户描述的疾病症状提供初步诊断和饮食建议。滴滴AI Labs开发的健康助手机器人能够根据医疗知识图谱推断出与用户症状经常同时出现的关联症状,并通过询问关联症状更准确地了解用户的身体状况。我们的健康助手聊天机器人已于2018年上线,为滴滴出行平台上的司机群体提供了健康咨询服务。
4
基于最小车队的动态车辆调度:一种深度强化学习方法
Dynamic Vehicle Dispatching Based on Minimum Fleet A Deep Reinforcement Learning Method
由于交通供需之间的不匹配,大城市的车辆共享平台效率有很大提升空间。随着全球定位系统(GPS)和无线通信工具的发展,车辆共享平台可以充分利用空闲车辆来缓解供需之间的差距。针对如何对空驶车辆有效指引以减少空闲率,同时研究城市承运中不同车队规模时的效率,滴滴普惠产品技术部和北京邮电大学王强副教授合作探讨,联合提出了一种基于最小车队的动态车辆调度方法,模拟实验得到了AI Labs的环境支持。首先,在已知车辆共享网络情况下,采用二部图匹配算法获得所需的最小车辆数。然后,为了平衡实时交通中交通供需之间的失配,提出了深度强化学习算法DDQN(Dueling Deep Q-Network ),以有效地使用有限的车辆。DDQN能够估算供需之间复杂的动态关系,因此可以根据DDQN的调度政策将可用车辆调度到需求量大的地方,从而缓解供需之间的差距。最后,我们设计了一个模拟器来训练和测试决斗的深度强化学习算法。仿真结果证明算法在订单响应率和司机计费时长占比方面有显著改进,可以提升司机收入、改善用户体验。
5
基于轨迹合成的离线强化学习方法
Offline Reinforcement Learning via Trajectory Synthesis
强化学习特别是深度强化学习在近年来取得了非凡的成就,不仅仅应用于游戏领域,在工业制造、商品推荐、量化交易等方面也被广泛应用。然而,目前强化学习存在对样本利用率低,训练精确的策略需要大规模样本的挑战。例如,在Atari 这样简单的游戏上通常需要 3 亿次状态采样。为了提高历史静态数据在强化学习中的利用率,滴滴AI Labs提出一种离线强化学习方法offDQN方法。区别于行为克隆方法和逆强化学习方法,由于历史数据所对应的策略并非最优策略,offDQN通过挖掘历史信息,离线合成最优决策轨迹,进而对强化学习价值函数进行进行改进。通过滴滴大数据平台A/B 测试,offDQN、DQN和人工策略相比,OffDQN在多项数据指标表现最优。
6
基于强化学习的共享出行市场用户增量响应建模研究
Reinforcement Learning for Uplift Modeling in Ridesharing Market
Uplift Modeling 旨在建模对用户进行(价格产品)刺激所带来的用户行为增量影响。在这项工作中,滴滴网约车策略与技术部从一个全新的角度来建模定义这个问题,并将其表述为马尔可夫决策过程(MDP)。Uplift Modeling问题的主要关注点是用户在刺激下的响应和自然响应间的差异,即对特定刺激的提升响应。传统的机器学习方法已经在这个问题中应用,但相关工作中普遍存在着两个问题限制了这些方法的表现。
问题一是:Uplift Modeling缺乏无偏的评估指标,一些现有指标(如QiNi系数和Uplift curve)仅适用于单变量的二元响应;缺乏合理的评估指标导致很难用离线数据集分析并模拟真实场景。问题二是:在Uplift Modeling问题中,真实场景中我们仅能得到自然响应和提升响应二者中的一个,这意味着对刺激动作提升响应的准确标签是天然缺失的。在本文中我们提出了一个新的Uplift Modeling度量指标,用于多种刺激动作和一般响应类型(二类/离散/连续), 它是Uplift Modeling的反向倾向评分(IPS)的一种变体,我们证明了这是一个无偏估计的Uplift Response;然后我们将Uplift Modeling重定义为马尔可夫决策过程(MDP), 并采用策略梯度方法进行求解;这种深度强化学习方法可以自动从数据中学习表示,不需要监督学习的明确标签,只使用短期和长期的反馈来指导在特定供需环境中哪些刺激效果是更好的。我们在真实场景数据上进行了实验,结果表明我们的方法比以前的方法有明显的改进。
通知
后续,小编会通过DiDi @NeurIPS 2019系列解读和您分享更多精彩内容!
敬请关注!
DiDi @NeurIPS 2019 | 千里相聚温哥华,共述机器学习新方向(预告篇)
NeurIPS 2019 | 滴滴D²-City目标检测迁移学习挑战赛再次启动
DiDi@IJCAI 2019 | 相约50周年盛会,澳门唱响AI之歌(预告篇)
编辑 | 贺贺